Why the simplest explanation isn’t always the best | PNAS (2023)
hl.icon
主成分として拾ってくる方向は互いに直行するという制約があることを忘れてはいけない
あと線形な手法であることにも注意
Naa_tsure.icon世界に存在するデータがすべてガウス分布ならPCAで問題ないけど、そんなことは当然あり得ない
時間or空間方向に平滑化されたデータに対してPCAを適用すると、本来は存在しない振動した主成分が出てくる
この振動した主成分をもとに、異なる時系列が類似した性質を共有していると結論付けてしまう可能性
例えば行動データと神経活動のデータの間に本来は関連がなくても、PCAの解釈でまったく反対の結論になるNaa_tsure.icon
データに応じてより適した(時に複雑な)モデルを採用することを考える
もちろんこちらもデータの特定のニュアンスにオーバーフィットしすぎてしまう可能性に気を付ける必要がある
例えば、jPCAは存在しない回転するダイナミクスを検出したりしてしまう 結局、どの手法を使うにしてもその手法の制約・仮定について正しく理解する必要がある
そうしないと、本来データには存在しないはずの幻の構造に囚われてしまう危険性がある
結局、複雑なデータをどのように解析すれば良いのか?
複雑なデータに対して簡単な説明が出来るという幻想を捨てる
ただ、データに忠実に従うのと、シンプルな解釈の間でどのようにバランスを取ればいいのかは不明
“prediction is much easier than interpretation”